智能论文笔记

Skill Extraction from Job Postings using Weak Supervision

Mike Zhang , Kristian Nørgaard Jensen , Rob van der Goot , Barbara Plank

分类：自然语言处理

2022-09-16

从职位发布获得的汇总数据为劳动力市场需求，新兴技能以及援助工作匹配提供了有力的见解。但是，大多数提取方法受到监督，因此需要昂贵且耗时的注释。为了克服这一点，我们建议通过弱监督提取技巧。我们利用欧洲的技能，能力，资格和职业分类法，通过潜在代表来找到工作广告的类似技能。该方法根据令牌级别和句法模式显示了强烈的正信号，优于基准。

translated by 谷歌翻译

Sort by Structure: Language Model Ranking as Dependency Probing

Max Müller-Eberstein , Rob van der Goot , Barbara Plank

分类：自然语言处理

2022-06-10

对预训练的语言模型（LM）做出明智的选择对于性能至关重要，但环境成本高昂，并且如此广泛地被忽略。计算机视觉领域已经开始解决编码器排名，并有希望地进入自然语言处理，但是它们缺乏对诸如结构化预测等语言任务的覆盖范围。我们建议通过测量可以从LM的上下文化嵌入中恢复标记的树的程度来探测LMS，特别是针对给定语言的解析依赖性。在46个类型和结构上不同的LM语言对中，我们的探测方法预测，最佳的LM选择有79％的时间使用尺寸的计算订单，而不是训练完整的解析器。在这项研究中，我们识别并分析了最近提出的脱钩LM -Rembert-并发现它的固有依赖信息较少，但经过完整的微调后通常会产生最好的解析器。没有这个离群，我们的方法将在89％的情况下确定最佳的LM。

translated by 谷歌翻译

How Universal is Genre in Universal Dependencies?

Max Müller-Eberstein , Rob van der Goot , Barbara Plank

分类：自然语言处理

2021-12-09

这项工作提供了普遍依赖项（UD）中类型的第一个深入分析。相反，与在单级/双语设置中使用小型定义标签的类型的类型工作，UD含有18个类型，其具有不同程度的特异性分布在114种语言中。由于大多数树班斯都标有多种类型，而缺乏关于哪种实例属于哪些类型的注释，我们提出了四种方法来预测使用TreeBank元数据的弱监督预测实例级类型。所提出的方法恢复了比竞争性基线更好的竞争基线，如在UD的子集上用标记的情况测量并更好地遵守全球预期分布。我们的分析使用UD流派元数据在For TreeBank选择的情况下揭示了现有的工作，发现单独的元数据是嘈杂的信号，并且必须在TreeBanks内解开，然后才能普遍应用。

translated by 谷歌翻译

Parsing with Pretrained Language Models, Multiple Datasets, and Dataset Embeddings

Rob van der Goot , Miryam de Lhoneux

分类：自然语言处理

2021-12-07

随着数据集可用性的增加，从各种数据源的学习可能增加了。从多个数据源改进学习的一个特定方法是在训练期间嵌入数据源。这允许模型来学习概括的功能以及区分数据集之间的功能。但是，在自然语言处理领域引入了基于Contextualized变换器的嵌入之前，这些数据集嵌入物主要使用。在这项工作中，我们将两种方法与基于变换器的多语言依赖性解析器进行了比较，并执行了广泛的评估。我们展示：1）嵌入数据集仍然有益于这些模型2）在编码器级别3的数据集中嵌入数据集的性能增加最高），我们确认表现增加对于具有低基线分数的小型数据集和数据集的性能增加最高。 4）我们显示所有数据集的组合的培训类似地执行基于语言相关性的较小群集。

translated by 谷歌翻译

Geometric and Physical Quantities Improve E(3) Equivariant Message Passing

Johannes Brandstetter , Rob Hesselink , Elise van der Pol , Erik J Bekkers , Max Welling

分类：机器学习 | 人工智能 | (统计)机器学习

2021-10-06

包括协调性信息，例如位置，力，速度或旋转在计算物理和化学中的许多任务中是重要的。我们介绍了概括了等级图形网络的可控e（3）的等值图形神经网络（Segnns），使得节点和边缘属性不限于不变的标量，而是可以包含相协同信息，例如矢量或张量。该模型由可操纵的MLP组成，能够在消息和更新功能中包含几何和物理信息。通过可操纵节点属性的定义，MLP提供了一种新的Activation函数，以便与可转向功能字段一般使用。我们讨论我们的镜头通过等级的非线性卷曲镜头讨论我们的相关工作，进一步允许我们引脚点点的成功组件：非线性消息聚集在经典线性（可操纵）点卷积上改善;可操纵的消息在最近发送不变性消息的最近的等价图形网络上。我们展示了我们对计算物理学和化学的若干任务的方法的有效性，并提供了广泛的消融研究。

translated by 谷歌翻译

Reproducible radiomics through automated machine learning validated on twelve clinical applications

Martijn P. A. Starmans , Sebastian R. van der Voort , Thomas Phil , Milea J. M. Timbergen , Melissa Vos , Guillaume A. Padmos , Wouter Kessels , David Hanff , Dirk J. Grunhagen , Cornelis Verhoef

分类：计算机视觉

2021-08-19

放射线学使用定量医学成像特征来预测临床结果。目前，在新的临床应用中，必须通过启发式试验和纠正过程手动完成各种可用选项的最佳放射组方法。在这项研究中，我们提出了一个框架，以自动优化每个应用程序的放射线工作流程的构建。为此，我们将放射线学作为模块化工作流程，并为每个组件包含大量的常见算法。为了优化每个应用程序的工作流程，我们使用随机搜索和结合使用自动化机器学习。我们在十二个不同的临床应用中评估我们的方法，从而在曲线下导致以下区域：1）脂肪肉瘤（0.83）； 2）脱粘型纤维瘤病（0.82）; 3）原发性肝肿瘤（0.80）; 4）胃肠道肿瘤（0.77）； 5）结直肠肝转移（0.61）; 6）黑色素瘤转移（0.45）; 7）肝细胞癌（0.75）; 8）肠系膜纤维化（0.80）; 9）前列腺癌（0.72）； 10）神经胶质瘤（0.71）; 11）阿尔茨海默氏病（0.87）;和12）头颈癌（0.84）。我们表明，我们的框架具有比较人类专家的竞争性能，优于放射线基线，并且表现相似或优于贝叶斯优化和更高级的合奏方法。最后，我们的方法完全自动优化了放射线工作流的构建，从而简化了在新应用程序中对放射线生物标志物的搜索。为了促进可重复性和未来的研究，我们公开发布了六个数据集，框架的软件实施以及重现这项研究的代码。

translated by 谷歌翻译

Preregistered protocol for: Articulatory changes in speech following treatment for oral or oropharyngeal cancer: a systematic review

Thomas B. Tienkamp , Teja Rebernik , Defne Abur , Rob J. J. H. van Son , Sebastiaan A. H. J. de Visscher , Max J. H. Witjes , Martijn Wieling

分类：自然语言处理

2022-09-14

该文档概述了Prospero预先注册的方案，用于对口腔或口腔或肉桂癌治疗后语音变化的系统审查进行系统审查。口腔中肿瘤的治疗可能会导致生理变化，这可能导致发音困难。由于疤痕组织和/或潜在的（术后）放射治疗，舌头变得不那么流动。此外，组织损失可能会为气流或极限收缩可能性创造旁路。为了更好地了解语音问题的性质，需要有关枢纽运动的信息，因为感知信息或声学信息仅提供了间接的关节变化证据。因此，这项系统的综述将回顾研究，该研究直接测量口腔或口咽癌治疗后舌，下巴和嘴唇的关节运动。

translated by 谷歌翻译

Supporting peace negotiations in the Yemen war through machine learning

M. Arana-Catania , F. A. Van Lier , Rob Procter

分类：自然语言处理 | 机器学习

2022-07-23

当今的冲突变得越来越复杂，流畅和分散，通常涉及许多具有多重且经常发散利益的国家和国际参与者。随着调解员努力使冲突动态有理由，例如冲突政党的范围和政治立场的演变，相关与较少相关的参与者在和平建立和认同之间的区别或身份证明，这一发展构成了冲突调解的重大挑战。关键冲突问题及其相互依存。国际和平努力似乎不足以成功应对这些挑战。尽管技术已经在与冲突相关的领域进行了试验和使用，例如预测冲突或信息收集，但对技术如何促进冲突调解的关注较少。该案例研究有助于有关在冲突调解过程中使用最先进的机器学习技术和技术的新兴研究。本研究使用也门和平谈判中的对话成绩单，通过为他们提供知识管理，提取和冲突分析的工具来有效地支持中介团队。除了说明冲突调解中的机器学习工具的潜力外，本文还强调了跨学科和参与性的共同创造方法对开发上下文敏感和有针对性的工具的重要性，并确保有意义和负责任的实施。

translated by 谷歌翻译

Bayesian Optimization for auto-tuning GPU kernels

Floris-Jan Willemsen , Rob van Nieuwpoort , Ben van Werkhoven

分类：机器学习

2021-11-26

寻找可调谐GPU内核的最佳参数配置是一种非普通的搜索空间练习，即使在自动化时也是如此。这在非凸搜索空间上造成了优化任务，使用昂贵的来评估具有未知衍生的函数。这些特征为贝叶斯优化做好了良好的候选人，以前尚未应用于这个问题。然而，贝叶斯优化对这个问题的应用是具有挑战性的。我们演示如何处理粗略的，离散的受限搜索空间，包含无效配置。我们介绍了一种新颖的上下文方差探索因子，以及具有改进的可扩展性的新采集功能，与知识的采集功能选择机制相结合。通过比较我们贝叶斯优化实现对各种测试用例的性能，以及核心调谐器中的现有搜索策略以及其他贝叶斯优化实现，我们证明我们的搜索策略概括了良好的良好，并始终如一地以广泛的保证金更优于其他搜索策略。

translated by 谷歌翻译

Evaluating the application of NLP tools in mainstream participatory budgeting processes in Scotland

Jonathan Davies , Miguel Arana-Catania , Rob Procter , Felix-Anselm van Lier , Yulan He

分类：自然语言处理

2021-11-23

近年来，苏格兰的参与式预算（PB）已从少数社区主导的过程中成长为当地和国家政府支持的运动。这是苏格兰政府与苏格兰地方当局（COSLA）之间的协议介绍，至少1％的地方当局预算将受到PB。这个正在进行的研究论文探讨了从苏格兰的32名地方当局“缩放”或“主流”出现的挑战。主要目标是评估当地的管理局使用数字平台领事，这适用自然语言处理（NLP）来解决这些挑战。该项目采用采访，对PB流程的观察以及数字平台数据的分析来采用定性纵向设计。采用主题分析来捕捉出现的主要问题和主题。然后纵向分析探讨这些随着时间的推移方式。 32个直播学习网站的潜力提供了一个独特的机会，探索离散的政治和社会背景，这些环境变化，允许更深层次的潜水到可能存在的挑战和问题，更广泛的横断面研究会错过。初始结果表明，可以使用NLP技术来解决缩放的问题和挑战，在先前的受控用案例的评估中，已显示提高公民参与的有效性。

translated by 谷歌翻译